查看原文
其他

【数据运营】数据分析中,文本分析远比数值型分析重要!(下)

The following article is from Social Listening与文本挖掘 Author 苏格兰折耳喵

本文是《数据分析中,文本分析远比数值型分析重要!》的下篇,以一个实际案例来聊文本分析在实际运营如何落地。行为脉络如下:先简要讲述文本分析的分支---情绪分析的基本原理,然后以亚马逊的Kindle Voyage的用户评论作为“情绪分析”的实操分析,最后罗列了几个实用的文本分析工具,以期对大家有所帮助。

在大数据时代还未来临前,企业一般根据自身积累的历史数据,以及一线运营人员的主观经验来猜测用户接下来的反应,以此作为制定后续营销、运营方案的依据。
然而,在这个VUCA时代(宝洁公司首席运营官Robert McDonald借用一个军事术语来描述这一新的商业世界格局,即volatility,易变性;uncertainty,不确定性;complexity,复杂性;ambiguity,模糊性),商业场景的变化速度和复杂程度今非昔比,用户的喜好也容易受外界“场景”的影响,就如“孩子的脸”和“六月的天”一样善变,先前积累的经验往往不足以作为企业下一阶段进行市场谋划和运营的依据。

         VUCA时代的特征

根据《数据分析中,文本分析远比数值型分析重要!(上)》的分析,我们可以了解到,大数据文本分析是应对上述困局的一剂良方。
接下来,我们来聊聊文本分析是如何在商业实践中发挥它的巨大威力。

1.文本分析重构产品的营销和运营流程
借助基于大数据的文本分析,我们可以对用户行为和想法进行科学分析,使用户洞察由原来的主观“猜测”转变为以数据为驱动的精准预测。
在新产品上市前,或者是小规模投放市场后,在社交媒体上对粉丝和潜在用户的言论进行收集,对其进行文本分析,知道他们喜欢产品的哪些方面,对哪些方面不太满意,以及他们对产品的其他期望,从而敏捷、快速、准确的对用户的反馈做出积极的回应。
由此可见,有文本分析介入的产品运营流程被“重构”了,如下图所示。


有文本分析参与的营销分析逻辑流程

其中,对用户言论进行文本分析的“精髓”在于对提炼出的文本数据的所表达出的“情绪”的解读,也就是用户言论的情绪分析
在理解文本分析语境下的“情绪分析”前,我们先看看它的一般含义。

2.大数据文本分析中的“情绪分析”是什么?
先说“情绪”。“情绪”这个词,在心理学中的一般含义是:对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态。我们日常中最普遍的情绪就是喜、怒、忧、思、悲、恐、惊,也就是中医中所说的“七情”。
那么,“情绪分析”就是有效且准确的识别这些具体的情绪,根据得到的结果,进一步对产生于自身或者他人的情绪采取合理的应对措施(如疏导自身消极情绪、理解他人的反常行为等)。
与此类似,基于大数据文本数据的“情绪分析”,也被业界称为“观点挖掘”,它利用多样化、海量的社会化媒体做客服,借助数量庞大的社交网络平衡语料新闻平衡语料的机器学习模型,对所获取文本中的情感倾向评价对象进行提取,使运营者更全面、更深入地了解用户的“心声”,掌握用户对于产品的喜好程度,及用户视角下的产品优缺点。
值得注意的是,基于大数据文本的情绪分析在于深度分析评论的意义(评论的是事物的哪些方面)以及附带的情绪倾向(是“褒”是“贬”,还是“中立”),而不是评论本身在说的文字。
下面,笔者将以基于亚马逊上Kindle Voyage商品评论的文本数据为例,来聊聊文本数据的情绪分析在商业实践中的运用。

3.“情绪分析”在商业实践中的正确打开方式
现在,笔者以亚马逊官网2014年9月份在其平台上发售的KindleVoyage电子书阅读器珍藏限量为例,对其商品评论区的用户评论进行基于文本数据的“情绪分析”,看看我们能从中得到哪些有价值的insight,以便优化我们的运营工作。



亚马逊官网上Kindle Voyage电子书阅读器的商品详情页

分析时间段:2014.12.01~2015.06.23
数据来源:亚马逊官网上Kindle Voyage电子书阅读器商品评论区
意见领袖总数(评价者):1675人
原始评价:2720条
详细评价信息(包括对评价的“回应”,即评价的评价,如此循环):4659条


亚马逊Kindle Voyage电子书阅读器珍藏限量版评论区

笔者将从以下5个方面,即用户聚焦点分析、用户反馈趋势分析、用户情绪分析、用户反馈分析,以及各地域用户评级分布及情绪分析,对Kindle Voyage亚马逊商品评论区的4659条用户留言/评论进行文本分析。


对Kindle Voyage用户评论进行文本分析的几大模块


(1)用户典型意见分析
大数据文本分析中的“典型意见”是指,将用户的意见进行单据级别的语义聚合,将内涵相近但表述有差异的意见/看法聚合在一起,抽取出其中典型的用户反馈/意见,在短时间内迅速梳理出用户对于产品所关注的话题。


用户评论的典型意见分析

从上图可以看出,通过对这些用户留言的典型意见进行分析,再结合Kindle Voyage的商品详情描述,我们可以了解到用户对于KindleVoyage的评价主要集中在以下7个方面:

  • 捆绑销售策略(话题1)
  • 限量发售策略(话题2)
  • 屏幕显示效果(话题3)
  • 原装配套皮套(话题4)
  • 与其“同族兄弟”kindle Paper White的比较(话题5)
  • 屏幕的亮度自动调节功能(话题6、话题7)
  • 售后客服评价(话题8)

关于用户对这些话题的具体评价和情绪感受,我们需要做进一步的分析。


(2)用户反馈趋势分析

用户反馈趋势分析曲线展现了文本数据量在时间上的分布情况,可以从宏观上掌握上述8个话题所对应评论(量)的发展走势,以便做好及时跟进,发掘出其中有价值的言论。

下图中,从下至上,依次是话题1到话题8的评论数量随时间变化的增减趋势。其中,评论量的大小以图形面积的大小来呈现。


用户评论量随时间轴的变化趋势

可以看到,这些话题的发布数量的增减走势基本相同,且在2015-3-1达到评论高峰,2016-1-25达到小高峰,这两个时间点的前后数天的购买人数激增。然而在2016-4-24这一天商品评论区的总体评论量骤然减少,对于这几个异常点,运营人员可以调出对于日期的销售记录、商品维护日志等资料找出原因,以便对症下药,做好后续的运营工作。

(3)用户评价和情绪分析
这部分包含2个模块,即用户评价和情绪分析,二者存在一定的正相关关系,也就是说,用户评价较高,相应的情绪偏正面,反正亦然。

  • 用户评价分析


用户评论星级分布表



用户评价星级占比图

从上面2个图可知,超过63%的用户对于KindleVoyage的产品性能是非常满意的,给出了5颗星的评价;次之的四颗星评价占到19.15%的比重,以上二者比重之和超过80%,可知Kindle Voyage总体的市场反馈非常不错。

  • 用户总体情绪倾向分析


用户的总体情感偏向


用户的情感度分布

上图是用户对于Kindle Voyage总体情感的仪表盘,是根据用户对于Kindle Voyage的文字评论进行情绪倾向分析得出的,能反映消费者对于Kindle Voyage总体态度是肯定还是否定。该仪表盘分为3个大的方向,即负面情绪、中性情绪和正面情绪,其中暗含的用户态度就是---对产品不满意、产品一般和产品很不错。
从上面2个图可以看出,购买者对于Kindle Voyage以中性评论为主,情感正面值为1.06,总体情感偏向于正面,说明大家对Kindle Voyage的真实看法与评价星级总体倾向是一致的,没有言不由衷。

(4)个体用户情绪倾向分析
上面的是全体用户对于Kindle Voyage的总体情绪倾向,但在很多时候,我们想要知道哪些用户的“发声”在这些评论中更具代表性。这就需要分析引擎在语义层面上对每个用户进行重要性排名,从中发掘出有“话语权重”较大的“意见领袖”。
更进一步,我们要对其中单个用户的情绪态度、评价和所关注的产品方面进行分析,这就涉及到以单个用户为主体的情绪倾向分析了。
以下2个图分别关注的是意见领袖(用户)情绪分析总览和单个意见领袖(用户)的详细情绪分析。从中我们可以看到评论用户的名称、评论的数量、情绪是属性及相应的情绪数值。


用户(意见领袖)情绪分析总览

如果我们想对某个重要用户的情绪进行详细分析,我们可以点开这个用户的详细资料,进行深入的分析。如下图所示:


单个意见领袖(用户)的详细情绪分析

从上图中我们可以了解到为什么该用户对Kindle Voyage持正面态度(正面情绪用红色显示)了---下面的正面关键词云显示出该用户对Kindle Voyage的手感、屏幕显示和做工质量很满意。此外,在“焦点概览”里,我们可以了解到类似的评论有8条,在哪个时间节点达到峰值。

在进行上述分析后,我们还需要进一步读懂评论区的全体用户对Kindle Voyage的反馈,知道用户喜欢它的哪些方面,对哪些方面还不是太满意,以及这些(不)满意的方面的程度如何,这是“情绪分析”中的重中之重。

所以,我们需要进行下一步分析---用户反馈分析。


(5)用户反馈分析

这部分的原理是,从众多用户评论中提取出跟产品属性相关且有代表性的关键词,并进行相似文本聚类,然后给出相应权重,最后匹配相应的情绪属性情绪值。最终的结果使得运营者拥有了用户视角,知晓产品有哪些地方表现尚可,哪些地方反映平平,而哪些地方是需要进行改进和完善的。

下图是用户对于Kindle Voyage使用后的评论中提取并聚类的关键词云,其中文字大小代表该词的权重(重要程度和词频),字体颜色表明该词的情绪偏向(红色是正面评价,灰色是中性评价,蓝色是负面评价)。


用户的对于Kindle Voyage评论的主要关注点

根据关键词及其重要程度排名,笔者找到了用户满意的几个方面。
  • 屏幕显示效果良好,这一点用户很是认可,“显示效果”、“分辨率高”、“看着舒服”、“字迹清晰”等关键词显示较大,此类评价的用户居多;字体为红色,表明用户反映的情感正面积极。
  • 产品(及周边)质量不错,体现在“做工精细”、“续航能力”、“原装皮套”、“值得拥有”、“Ipad Mini(那样的做工)”、“实体翻页键(不错)”、“一分钱一分货”等关键词上。
  • “限量珍藏版“这个概念牌打得好,用户也愿意为此买单,这主要体现在“限量珍藏版”这个词频较高且为红色的关键字上。
另一方面,运营方也要及时了解用户的负向反馈,针对性地改进服务质量。
还好,在这里只出现了“压敏按键”这些负面词汇,点开“压敏按键”一词,看到用户的详细吐槽---“压敏按键在按下的时候出现下陷情形…”,虽然这样的反馈不多,但仍要引起高度警惕,具体排查是产品本身的设计问题,还是极个别的产品质量问题,并将此反馈传递给相关负责部门。

(6)地域评分和情绪分析
将用户的反馈数据和评分同步到地图上,通过形成的数据地图可以直观的看到各地对于KindleVoyage的评价和情绪度,从而对整体的用户反馈情况进行监控,重点“关照”其中的用户差评“重灾区”。
此处选取的是KindleVoyage在江苏省各市的用户反馈数据,反映出该地区Kindle Voyage用户对于产品的评价及情绪倾向性。
其中,数值代表评分高低,颜色反映情绪值,绿色代表良好,蓝色是一般,红色代表处于警报状态,需要重点关注,排查问题发生的具体原因。


江苏省各市Kindle Voyage用户的评分及情绪度分布

这里可以看到,徐州市、连云港市等城市的用户反馈良好,反映在评分较高,且颜色为绿色。然而,淮安市、镇江市和南京市的Kindle Voyage用户却非常不满意,评分较低且情绪度处于红色警报状态,需要引起客户体验部门的高度重要,做好用户情绪疏导和公关工作。

结语
从上面的实例中,我们可以体会到大数据文本分析对于产品、设计、营销和运营的巨大价值,它的重要性不亚于传统的结构性数据分析。用正确的方式阅读这些海量的文本数据,我们就可以直接读懂用户的想法,获得强有力的决策支持,从而使产品研发、营销推广和日常运营更贴近消费者需求,最终在用户心中形成良好的品牌形象。

 

在文章末尾,介绍几个较为实用的文本分析工具给大家:
1.图悦:在线词频分析工具、词云制作工具,还可以自定义词云的形状。
网址:http://www.picdata.cn/
2.新浪微舆情:全网事件分析(基于关键词设置,实时抓取全网跟关键词有关的信息)、基用户画像分析(在竞品分析和微博传播路径分析中基于用户兴趣标签和微博发言所得)。
网址:http://wyq.sina.com
3. 腾讯文智:词法类分析(把句子拆解成词语进行词性标注,如名词、动词、形容词等)、句法类分析(对句子的词性分析基础上,继续分析主、谓、宾、定、状、补的句子结构)、篇章类分类(有内容分类、情感分析、关键字分析,以及对全文摘要的提取分析)
网址:http://nlp.qq.com/semantic.cgi
4. 大数据搜索与挖掘平台:功能模块较全,文本分析一条龙服务,包括分词标注、实体抽取、词频统计、文本分类、情感分析、关键词提取、相关词分析、依存文法、简繁转换、自动注音和摘要提取等。
网址:http://ictclas.nlpir.org/nlpir/
5.  Linguakit不仅能够提取关键词,还能实现文本翻译、词频统计、词云图和文本情感分析等功能。
网址:https://linguakit.com/en/?utm_campaign=elearningindustry.com&utm_source=/&utm_medium=link


精彩回顾





Python网络爬虫与文本数据分析

综述:文本分析在市场营销研究中的应用

Seaborn:一行代码生成酷炫狂拽的数据集可视化

50题matplotlib从入门到精通

30例 | 一文搞懂python日期时间处理

如何批量下载上海证券交易所上市公司年报

pdfkit | 自动化利器,生成PDF就靠它了

中文文本数据逻辑性分析库

中文文本分析相关资源汇总

cnsenti中文情绪情感分析库

如何使用Python快速构建领域内情感词典

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

Loughran&McDonald金融文本情感分析库


万水千山总是情,给我点好看可好❤


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存